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Введение 


В статье речь пойдет об этапах поиска и детектирования объектов на изображе- 
нии, а также определение разности положения объекта на двух различных изображениях. 

Объект исследования: набор изображений движения объекта в пространстве. 
Объект состоит из соединенных сфер одинакового радиуса. Возможно смещение объекта 
по трем осям (х,у,7), а также произвольное вращение. 

Предмет исследования: детектирование объекта на изображении, определение 
смещения (вращение) объекта на двух различных изображениях. 
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Цель работы -— разработать алгоритмы, которые позволят детектировать объект на 
изображении и методы для определения изменения положения в пространстве объекта по 
двум различным изображениям. Совместно разработанные методы и алгоритмы будут 
представлять собой систему оптического распознавания движения объекта в пространстве. 

Для достижения поставленной цели необходимо решить следующие задачи: 

— поиск границ объекта; 

— детектирование структурных элементов; 

— определение положения объекта. 


Поиск границ объекта 


Края (границы) — это такие кривые на изображении, вдоль которых происходит 
резкое изменение яркости или других видов неоднородностей [1]. Проще говоря, край — 
это резкий переход/изменение яркости. Причины возникновения краёв: 

— изменение освещенности; 

— изменение цвета; 

— изменение глубины сцены (ориентации поверхности). 

Самым популярным методом выделения границ является детектор границ Кен- 
ни [2]. Основными этапами детектора границ Кенни является: 

1. Сглаживание. Размытие изображения для удаления шума. Оператор Кенни 
использует фильтр, который может быть хорошо приближен к первой производной 
гауссианы #1 = 1.4. 

2. Поиск градиентов. Границы отмечаются там, где градиент изображения при- 
обретает максимальное значение. Они могут иметь различное направление, поэтому 
алгоритм Кенни использует четыре фильтра для обнаружения горизонтальных, вер- 
тикальных и диагональных ребер в размытом изображении. 

3. Подавление немаксимумов. Только локальные максимумы отмечаются как 
границы. 

4. Двойная пороговая фильтрация. Потенциальные границы определяются порогами. 

5. Трассировка области неоднозначности. Итоговые границы определяются путём 
подавления всех краёв, несвязанных с определенными (сильными) границами. 

Детектор использует фильтр на основе первой производной от гауссианы. Так 
как он восприимчив к шумам, лучше не применять данный метод на необработанных 
изображениях. Сначала исходные изображения нужно свернуть с гауссовым фильтром. 

Воспользовавшись оператором обнаружения границ (например, оператором 
Собеля), получается значение для первой производной в горизонтальном направле- 
нии (Су) и вертикальном направлении (Ох). 

Из этого градиента можно получить угол направления границы: О=агсап(Ох/Оу). 

Угол направления границы округляется до одной из четырех углов, представ- 
ляющих вертикаль, горизонталь и две диагонали (например, 0, 45, 90 и 135 градусов). 
Затем идет проверка того, достигает ли величина градиента локального максимума в 
соответствующем направлении. 

Например, для сетки 3х3: 

— если угол направления градиента равен нулю, точка будет считаться границей, 
если её интенсивность больше чем у точки выше и ниже рассматриваемой точки; 

— если угол направления градиента равен 90 градусам, точка будет считаться грани- 
цей, если её интенсивность больше чем у точки слева и справа рассматриваемой точки; 

— если угол направления градиента равен 135 градусам, точка будет считаться 
границей, если её интенсивность больше чем у точек, находящихся в верхнем левом 
и нижнем правом углу от рассматриваемой точки; 
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— если угол направления градиента равен 45 градусам, точка будет считаться 
границей, если её интенсивность больше чем у точек, находящихся в верхнем правом и 
нижнем левом углу от рассматриваемой точки. 

Таким образом, получается двоичное изображение, содержащее границы (т.н. 
«тонкие края»). 

На рис. 1 приведено начальное изображение объекта, а на рис. 2 — результаты 
детектора границ Кенни для заданной предметной области. 


Рисунок 1 — Исходные изображения 


Рисунок 2 — Результат детектора границ Кенни 


Детектирование структурных элементов 


Так как объект на изображении состоит из окружностей, то по найденным гра- 
ницам необходимо восстановить окружности. Для структурного восстановления кон- 
струкции объекта. Один из наилучших для этого методов является преобразование Хафа [3]. 
Преобразование Хафа служит для поиска на изображении фигур, заданных аналити- 
чески: прямых, окружностей и любых других, для которых вы сможете придумать 
уравнение с небольшим количеством параметров. 

В простейшем случае преобразование Хафа является линейным и использует 
уравнение прямой с угловым коэффициентом: 


у=шх + Б, 


где и — тангенс угла наклона прямой к оси ОХ, Ь — координата точки пере- 
сечения прямой с осью ОТ. 

Основная идея преобразования Хафа — учесть характеристики прямой не как 
геометрического места точек изображения, а в терминах ее параметров, т.е. м и Б. 
Прямая представляется в виде точки с координатами (Ь, т) в пространстве пара- 
метров. Для каждой точки в пространстве (х, у) в пространстве параметров (Б,т ) 
будет соответствовать прямая, чем чаще через точку в пространстве (р, т) будет про- 
ходить прямая, тем больше будет коэффициент 2 у этой точки. Зная эти параметры, 
мы получаем положение линии. 
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Окружность описывается уравнением с тремя параметрами - (х-хо)? + (у-уо)? = 
= В?. Здесь (хо, У) — координаты центра, а К -— радиус. Пространство Хафа должно 
иметь три измерения, но мы ограничимся двумя, так как К нам известен. В этом 
случае все, что нам нужно найти — это координаты центров. 

Возьмем такое исходное изображение (рис. 3). Так же, как и для преобразо- 
вания Хафа для прямой, строим для каждой точки на исходном изображении точки в 
пространстве (хо, уо). Для точек с максимальным значением коэффициента 7 строим 
окружности на исходном изображении (рис. 4). 


Рисунок 3 — Исходное изображение для преобразования Хафа 


Рисунок 4 — Преобразование Хафа для окружностей 


На полученном изображении видно взаимное расположение окружностей друг 
относительно друга, что нам и необходимо для следующего этапа. 


Определение положения объекта 


Для проведения этого этапа предлагается два подхода: 

1. Распознавания объекта по построенному эталону; 

2. Поиск изменений и смещений по кадрам. 

Суть первого подхода заключается в том, что нам известна конструкция объекта, 
то есть взаимное расположение сфер относительно друг друга. Таким образом, мы 
можем смоделировать объект необходимой нам конструкции и производить над ним 
любые действия по перемещению вращению, сохраняя параметры изображения при 
этих действиях. Таким образом мы можем собрать базу данных изображений все 
возможных положений объекта в пространстве. При помощи этой базы производить 
распознавание [4]. При распознавании возможно использовать методы шаблонного 
сравнения [5], структурный подход или нейросети [6]. 
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Шаблонное сравнение. Такой подход основан на сравнении исходного изображения 
со всеми шаблонами, имеющимися в базе; и выбирают шаблон с наименьшим коли- 
чеством точек, отличных от входного изображения. Шаблонные системы довольно 
устойчивы к дефектам изображения и имеют высокую скорость обработки входных 
данных, но надежно распознают только те объекты, шаблоны которых им «известны». 

Структурные системы. В таких системах объект описывается как граф, узлами 
которого являются элементы входного объекта, а дугами — пространственные от- 
ношения между ними. Системы, реализующие подобный подход, обычно работают с 
векторными изображениями. Структурными элементами являются составляющие объект 
окружности. 

К недостаткам структурных систем следует отнести их высокую чувствительность 
к дефектам изображения, нарушающим составляющие элементы. Также векторизация 
может добавить дополнительные дефекты. Кроме того, для этих систем, в отличие от 
шаблонных, до сих пор не созданы эффективные автоматизированные процедуры 
обучения. 

Нейросети. Рассмотрен еще один подход для распознавания на основе исполь- 
зования нейросетей. Преимущество этого подхода заключается в отсутствии необхо- 
димости предыдущего этапа с поиском границ и детектированием окружностей. 
Характерной особенностью неокогнитрона является возможность видоизменить сеть 
таким образом, чтобы она максимально соответствовала решаемой задаче. Опираясь 
на принцип функционирования сети, можно оптимизировать нейросеть для распозна- 
вания положения объекта, не меняя внутреннюю структуру, а только манипулируя 
слоями и количеством плоскостей в слоях. Их число зависит от количества эталон- 
ных образов и их характерных черт. 

Неокогнитрон, рассматриваемый в данной работе, состоит из таких функцио- 
нальных частей (рис. 5): 

1) входной слой (рецептивный слой); 

2) слой фильтрации входного образа; 

3) слой усиления отфильтрованного сигнала; 

4) промежуточные слои; 

5) распознающий слой (слой классификации). 


Слой классификации 


Рецептивный слой 


Слой усиления 


Слой фильтрации 


$1 


Рисунок 5 — Архитектура предложенной нейронной сети 


Входной образ подается на рецептивный слой неокогнитрона, где он нормали- 
зуется и приводится к бинарному виду. За рецептивным слоем следуют слой фильтрации 
и слой усиления. Три слоя, рассмотренных выше, относятся к области первичной 
обработки сигнала, и их совместная работа позволяет «подготовить» произвольный 
образ к обработке. 
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Промежуточные слои состоят из попарно соединенных плоскостей простых и 
комплексных нейронов. В этой области проходит выделение основных свойств образов, 
а также сжатие информации для упрощения распознавания. 

Последний слой — это слой классификации. От его структуры и настройки не- 
посредственно зависит точность, с которой нейросеть может распознавать образы. 

Недостаток подхода распознавания объекта по построенному эталону в целом 
является большой объем первоначальных данных. Необходимо построить объект, 
смоделировать его вращение, что займет много времени и ресурсов. А так необходи- 
мо обработать все полученные изображения при моделировании. 

Второй подход представляет собой поиск изменений от кадра к кадру. На рис. 6 
представлены два кадра верху оригинал внизу после поиска границ. 


Рисунок 6 — Начальное и обработанное изображение 


На каждом кадре после преобразования Хафа для окружностей будет найдено 
четыре четко выделенных окружности (рис. 7). 


Рисунок 7 — Преобразование Хафа 


Взаимное расположение окружностей за кадр не изменилось, но их положение 
в пространстве изменилось. По этим изменениям производится определение измене- 
ния положения объекта в пространстве. Своего рода данный подход основан на 
структурном распознавании, только структура не известна заранее, а строится для 
изображения и нас интересует изменение в структуре. 

Схожим по функционалу является метод оптических потоков [7], который тоже 
может применяться для решения поставленной задачи. Оптический поток между 
парой изображений есть векторное поле, задающее естественную (в самом широком 
смысле) трансформацию первого изображения во второе. 

Поле вектора оптического потока может быть представлено с помощью его 
компонентов у»(х, у) в направлении х и ъ,(х, у) в направлении у. Для измерения 
оптического потока необходимо найти соответствующие точки между одним временным 
кадром и следующим. При этом используется тот факт, что замкнутые участки изо- 
бражения, сосредоточенные вокруг соответствующих точек, характеризуются анало- 
гичными шаблонами интенсивности. Рассмотрим блок пикселов с центром в пикселе р, 
в точке (хо, уо), во время ®. Этот блок пикселов необходимо сравнить с блоками пик- 
селов, центрами которых являются различные потенциально применимые пикселы 4] 
с координатами (хо + 2. „0 + О, во время 10 + 0. Одним из возможных критериев 
подобия является сумма квадратов разностей (бит оф 5диагеа Оегеисеху — 5$0): 


550(Р,,О,) = уз (Их, у, )-ИКх+Ь,,у+0,1+0,)). 
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Здесь координаты (х, у) принимают свои значения среди пикселов в блоке с 
центром в точке (хо, уо). Найдем значения (Л, 0),) ‚ которые минимизируют выраже- 
ние для 35). В таком случае оптический поток в точке (хо, уд) принимает значение 
(у, у,) = (риБ» Бур). Еще один вариант состоит в том, что можно максимизировать 
взаимную корреляцию следующим образом: 


Согтеапоп(О,,О,) = У (у Кх+О,,у+р,1+р0, )». 
(ху) 

Метод с использованием взаимной корреляции действует лучше всего, если 
сцена характеризуется наличием текстуры, в результате чего блоки пикселов 
(называемые также окнами) содержат значительные вариации яркости среди входящих 
в них пикселов. Если же рассматривается ровная белая стена, то взаимная корреля- 
ция обычно остается почти одинаковой для различных потенциальных согласований 
и алгоритм сводится к операции выдвижения слепого предположения. 

Допустим, что наблюдатель движется с линейной скоростью (или скоростью 
переноса) Ти с угловой скоростью @ (таким образом, эти параметры описывают 
самодвижение). Можно вывести уравнение, связывающее скорости наблюдателя, оп- 
тический поток и положения объектов в сцене. Если предположить, что }=[, то из 
этого следуют уравнения 


Хх 


2(х,у) 


2 


у, (ху) =|- а 


5% —@,у+@,х 


2 


— 70») 


где Д(х,у) задает координату 2 точки в сцене, соответствующей точке на изобра- 
жении с координатами (х,у). 

Достаточно хорошего понимания того, что при этом происходит, можно достичь, 
рассмотрев случай чистого переноса. В таком случае выражения для поля потока 
принимают следующий вид: 


у (ху) = - < -@.х+а, |-у —@,у+@,х 


А 
2(х, у) 
Теперь становятся очевидными некоторые интересные свойства. Оба компо- 
нента оптического потока, у,(х, у) и у,(х, у), принимают нулевое значение в точке с 
координатами х=Ту/Т., у=ТуТ.. Эта точка называется фокусом расширения поля по- 
тока. Предположим, что мы изменим начало координат в плоскости х — у для того, 
чтобы оно находилось в фокусе расширения; в таком случае выражение для опти- 
ческого потока принимает особенно простую форму. Допустим, что (х’, у’) — это новые 
координаты, определяемые соотношениями х'=х-Т/Т., у'=у-ТуТ.. В таком случае ста- 
новятся справедливыми следующие уравнения: 
! 1 
= 
Ех, 2(х,У) 
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КЕ5ОМЕ 
р.5. Азагепко 
Даеспоп о ОБесЕ т ше Гтазе апа Раегтте из Обр/[асетет 


т Тло Отегеи! [тазез 

ТЬ$ рарег 415си$5ез ап арргоасН © пптасе ргосеззте, д&есйоп ап еде деесйоп оЁ 
оБ]есёз, деесйоп оЁ оБ]ес$ изше фе НоиеН {гапзогт ап пеига|! пебмогК$, аз \е| аз Ше 
дей оп о{ сВапете Фе роз1оп оРап об] ес т 5расе Бу теапз оЁ орйса| Йо\и тефоч. Рог фе 
деесНоп ап4 едое деесНоп ш Ше соитзе оЁ Ше ехрегитеп{ \аз спозеп е4зе даесйоп орегаог 
Кеппу ап4 ЗаЫе, аз Фе тозё зиНаЫе Юг Ше 1а$К. Гог Фе деесНоп оЁ зйгасвага| е]етепз оР а 
Ноцэв фгап$Рогт 15 изе4 аз ап об]ес{ сотрозе4 оЁ зрпетса| ейетеп{5. Веегтше йе обесё ш фе 
ппасе сопз14еге зеуега| арргоасвез. Райегпи зеагсВ ауатасе 1$ Фе еазе оР ппретешайоп. 
Тетр!а{е зу$ет 1$ аиЦе гез15бап ю Ппасе 4еес($ ап4 Вауе а В1е1 ргосеззте зрее4 оЁ бе шри 
Чаба Биё тепау де{ес{ ошу обес, {етр!аез \сЬ еу "Кпо\у." 

А згис@га] арргоасЬ ю Фе зВоисотите$ меб шси4е Фе сотрехйу оЁ тасБте [еагпт 
апа гез15%{апсе фо ппазе деЁес5. 

Тре адуащаое оЁР изте пеига| пеб\могК$ 1$ Фе ТасК оЁ пее4 Гог птаое рге-ргосез$те, зисВ аз 
зеагсв Боипдатез, НКегте ап деесНоп оЁ зёгасига[ е]етеп(5. 

ТБе 1105 ргопл15 те зоийопз тю 115 ргоет 1$ {бе те#о4 оЁ орйса| Ноуу, Уисн 15 4еуо1А 
ога равегп апа ТасК оЁ згасфиге зеагсП, ап поё аз сотр[ех аз а пеига| пебмогК. ТБе аиаШу оЁ 
{15 тефо4 4ереп4$ оп йе диаШу оЁ Фе даесНоп ап4 фе даесйоп оЁ Фе эгисфига| е]етеп оЁ 
{фе оБес:. Ви Рог Ч15 теоа 111$ Зер 15 по{ песеззату. 
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